图像注册是一个研究领域,必须将图像进行比较和对齐,并与观点或摄像机特征独立进行对齐。在某些应用中(例如法医生物识别技术,卫星摄影或室外场景标识)经典图像注册系统由于比较的一个图像而失败,这代表了另一个图像的一小部分。例如,在法医掌上识别的情况下,通常只能找到一小部分棕榈印刷,但是在数据库中,整个棕榈印刷已被注册。经典图像注册方法行为不佳的主要原因是两个图像的显着点的量之间的差距,这与被视为离群值的点数有关。通常,当代表场景的微小部分的图像急剧旋转时,找到良好匹配的困难会增加。同样,就掌刻法医而言,很难先确定发现的微型棕榈印刷图像的方向。我们提出了一种旋转不变的注册方法,该方法明确考虑要匹配的图像是较大图像的一小部分。在两种不同的情况下,我们在实验上验证了我们的方法。棕榈印刷识别和室外图像注册。
translated by 谷歌翻译
在这项工作中,我们专注于改善图像捕获生成系统生成的字幕。我们提出了一种新型的重新排列方法,该方法利用视觉声音措施来确定最大程度地捕获图像中视觉信息的理想标题。我们的重新级别使用了信念修订框架(Blok等,2003),通过明确利用所描绘的标题和视觉上下文之间的语义相关性来校准顶级字幕的原始可能性。我们的实验证明了我们方法的实用性,我们观察到我们的重新级别可以增强典型的图像捕获系统的性能,而无需进行任何额外的培训或微调。
translated by 谷歌翻译
联合学习(FL)是标准集中学习范式的最吸引人的替代方案之一,允许异质的设备集训练机器学习模型而无需共享其原始数据。但是,FL需要中央服务器来协调学习过程,从而引入潜在的可扩展性和安全性问题。在文献中,已经提出了诸如八卦联合学习(GFL)和支持区块链的联合学习(BFL)之类的无服务器的方法来减轻这些问题。在这项工作中,我们提出了这三种技术的完整概述,该技术根据整体性能指标进行比较,包括模型准确性,时间复杂性,交流开销,收敛时间和能源消耗。广泛的模拟活动允许进行定量分析。特别是,GFL能够节省18%的训练时间,68%的能源和51%的数据相对于CFL解决方案,但无法达到CFL的准确性水平。另一方面,BFL代表了一个可行的解决方案,用于以更高级别的安全性实施分散的学习,以额外的能源使用和数据共享为代价。最后,我们确定了两个分散的联合学习实施的开放问题,并就该新研究领域的潜在扩展和可能的研究方向提供见解。
translated by 谷歌翻译
从单个图像中恢复人头的几何形状,同时对材料和照明进行分解是一个严重不良的问题,需要事先解决。基于3D形态模型(3DMM)及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是,3DMM的表现力受到限制,它们通常会产生过度平滑和身份敏捷的3D形状,仅限于面部区域。最近,使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状,材料和照明。但是,这些方法需要几十个输入图像。在本文中,我们介绍了Sira,该方法从单个图像中,从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型,这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明,Sira获得了最新的状态导致3D头重建,同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外,我们的重建适合基于物理的外观编辑和头部模型重新构建。
translated by 谷歌翻译
最近在自动手语理解中的具有挑战性的任务(例如手语识别,翻译和生产)方面取得了重大进展。但是,这些作品集中在相对较少的样本,简短录音以及有限的词汇和签名空间的数据集上。在这项工作中,我们介绍了手语主题检测的新颖任务。我们基于跨越多个语义域的大规模视频数据集的2sign的实验。我们为主题检测的任务提供了强大的基础,并在手语领域常用的不同视觉特征之间进行了比较。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
我们提出了一种基于优化的新型范式,用于在图像和扫描上拟合3D人类模型。与直接回归输入图像中低维统计体模型(例如SMPL)的参数的现有方法相反,我们训练了每个vertex神经场网络的集合。该网络以分布式的方式预测基于当前顶点投影处提取的神经特征的顶点下降方向。在推断时,我们在梯度降低的优化管道中采用该网络,称为LVD,直到其收敛性为止,即使将所有顶点初始化为单个点,通常也会以一秒钟的分数出现。一项详尽的评估表明,我们的方法能够捕获具有截然不同的身体形状的穿着的人体,与最先进的人相比取得了重大改进。 LVD也适用于人类和手的3D模型配合,为此,我们以更简单,更快的方法对SOTA显示出显着改善。
translated by 谷歌翻译
随着无线标准的发展,引入了更复杂的功能,以解决吞吐量,延迟,安全性和效率方面的增加。为了释放此类新功能的潜力,目前正在利用人工智能(AI)和机器学习(ML)(ML)来从数据中得出模型和协议,而不是通过手工编程。在本文中,我们探讨了将ML应用于下一代无线局域网(WLAN)的可行性。更具体地说,我们专注于IEEE 802.11AX空间重用(SR)问题,并通过联合学习(FL)模型来预测其性能。在这项工作中概述的FL解决方案集是2021年国际电信联盟(ITU)AI的5G挑战赛的一部分。
translated by 谷歌翻译
在本文中,我们提出了一种新的方法来增强从单个可佩戴相机捕获的视频计算的人的3D身体姿势估计。关键的想法是利用在联合嵌入空间中链接第一和第三次视图的高级功能。为了了解这样的嵌入空间,我们介绍了First2第三姿势,这是一个近2,000个视频的新配对同步数据集,描绘了从第一和第三视角捕获的人类活动。我们明确地考虑了空间和运动域功能,同时使用以自我监督的方式培训的半暹罗架构。实验结果表明,使用我们的数据集学习的联合多视图嵌入式空间可用于从任意单视图的自拍视频中提取歧视特征,而无需需要域适应,也不知道相机参数。在三种监督最先进的方法中,我们在两个无约束数据集中实现了重大改善了两个无约束的数据集。我们的数据集和代码将可用于研究目的。
translated by 谷歌翻译
通过参与大规模联合学习(FL)优化的设备的异构性质的激励,我们专注于由区块链(BC)技术赋予的异步服务器的FL解决方案。与主要采用的FL方法相比,假设同步操作,我们提倡一个异步方法,由此,模型聚合作为客户端提交本地更新。异步设置与具有异构客户端的实际大规模设置中的联合优化思路非常适合。因此,它可能导致通信开销和空闲时段的效率提高。为了评估启用了BC启用的FL的学习完成延迟,我们提供了基于批量服务队列理论的分析模型。此外,我们提供仿真结果以评估同步和异步机制的性能。涉及BC启用的流量的重要方面,例如网络大小,链路容量或用户要求,并分析并分析。随着我们的结果表明,同步设置导致比异步案例更高的预测精度。然而,异步联合优化在许多情况下提供了更低的延迟,从而在处理大数据集时成为一种吸引力的FL解决方案,严重的时序约束(例如,近实时应用)或高度不同的训练数据。
translated by 谷歌翻译